Corpus for Benchmarking Clinical Speech De-identification
Este artigo apresenta o corpus SREDH-AICup, um conjunto de dados de fala clínica bilíngue (inglês e mandarim) com 20 horas de áudio e anotações temporais detalhadas de informações de saúde sensíveis, criado para superar a escassez de recursos públicos e impulsionar a pesquisa em desidentificação de fala médica automatizada.